数据分析,从相关分析开始
问题
前面我们讲述了差异检验的相关知识,包括T检验、方差分析、卡方检验等,但这些都是检验差异关系的。有差别就必然存在联系,如何检验变量之间关系的紧密程度和方向呢?接下来,我们来介绍一下相关分析。
相关知识
相关分析是研究两个或两个以上变量间的相关关系的统计分析方法。
例如,人的身高和体重之间、空气中相对湿度与降雨量之间的相关关系,都是相关分析研究的问题。
SPSS软件中常见的相关分析有三处,【交叉表—统计—相关性】、【相关分析】、【线性回归-统计-部分相关性和偏相关性】。
常见的相关系数有三种,它们分别是Pearson、Spearman、Kendall系数。
使用Pearson相关系数时,需要满足以下 3 个前提条件:
1、两个变量都是符合正态分布的连续变量;
2、两个连续变量应当是配对的,即来源于同一个个体;
3、两个连续变量之间存在线性关系,通常通过散点图来检验。
使用Spearman相关系数时,需要满足以下 2 个前提条件:
1、两个变量是连续变量或有序分类变量;
2、两个变量之间存在单调关系,这可以通过散点图进行判断。
Kendall相关系数的使用,需要满足以下条件:
1、两个变量需是连续变量或有序分类变量;
两个变量可以有以下三种情况:
①两个连续变量;
②两个有序分类变量;
③一个有序分类,一个连续变量。
2、两个变量应当是配对的,即来源于同一个个体。
综上所述,考察两个变量的相关关系,首先得看清楚两个变量属于哪种类型,不同的数据类型选择的相关系数也不一样。
统计分析中常见的变量类型有连续变量,无序分类变量、有序分类变量。关于数据类型的具体介绍可参考《小明教你SPSS》。
连续变量(测量变量、数值变量):如销售额、气温、工资收入、考试成绩;
无序分类变量(名义变量):如性别男和女,血型种类;
有序分类变量(等级变量):如学历水平(小学、初中、高中、大学、研究生),年级(大一、大二、大三、大四)。
操作步骤
问题:分析身高与肺活量是否存在相关?如果存在,相关性有多大?
分析:身高和肺活量均是连续变量,根据上述知识,当两个变量均是连续变量,使用Pearson积差相关分析。
结果解释
相关分析的结果包括相关系数、显著性大小(p值)和样本量。P值反映是有无相关的问题,相关系数反映的是相关程度的大小问题。P>0.05,相关系数再大,这种结果可能是虚假的。结果显示,身高与肺活量的相关系数为0.601>0,显著性为0.005<0.05,说明身高与肺活量呈显著正相关,即身高越高,肺活量越大,或者肺活量越大,身高越高。
但事实上真是如此吗?他们的关系是不是有其他因素的影响。敬请期待,下一期《数据分析,从偏相关分析开始》。
小结
(1)相关分析属于数据分析流程前端的探索性分析,探究变量间关系及性质,其结果在于指导下一步采取何种方法,是数据挖掘之前的基础工作;
(2)两两之间有相关关系,但不一定是因果关系,也可能仅是伴随关系;反过来,两两之间存在因果关系,那么两者之间必然相关;
(3)相关分析之前,有必要搞清楚变量的类型,根据具体类型选择合适的相关系数。Pearson相关系数适用于两变量的总体是正态分布或者近似正态分布的情况;Spearman等级相关即秩相关适用于不满足双变量正态分布,或总体分布类型未知,或等级资料。
(4)就适用性来说,kendall > spearman > pearson ,在考察两两变量间相关关系时,应了解两变量的变量类型以及是否有正态性,然后决定使用哪个系数。
(5)散点图是相关分析的最直接有效的可视化方法。
所有例题的数据文件都会上传到QQ群中,需要对照练习的朋友可以前往下载,QQ群号见下方温馨提示。
授人以鱼不如授人以渔
给我一份数据,还你一个世界
明诚数据工作室
数据分析 | 远程教学 | 论文指导
统计咨询 | 课程开发 | 技术指导
温馨提示
数据分析服务:如有数据分析或一对一远程教学的需要,请添加微信2433657970(小明同学)进行咨询。
SPSS教学视频:请点击《常用统计分析方法与操作》视频课程 正式上线啦!
SPSS有话说QQ群:706175650,用于分享文章提到的各种案例资料、软件、数据文件等。支持各种资料的直接下载和百度云盘下载。
加入我们:请点击 明诚数据工作室招贤纳士。
数据分析咨询:请点击首页下方“服务咨询”板块,获取咨询流程!